11. september 2025Eesti

Põhjalik juhend kohandatud teisendajate loomiseks scikit-learnis, et ehitada vastupidavaid masinõppe konveiereid ja täiustada andmete eeltöötlust.

Masinõppe konveier: Scikit-learni kohandatud teisendajate arendamine

Masinõppe konveierid on vastupidavate ja hooldatavate masinõppemudelite loomisel hädavajalikud. Scikit-learn (sklearn) pakub võimsat raamistikku nende konveierite loomiseks. Iga hea konveieri põhikomponent on võime teostada kohandatud andmeteisendusi. See artikkel uurib kohandatud teisendajate arendamist scikit-learnis, pakkudes põhjalikku juhendit andmeteadlastele ja masinõppeinseneridele üle maailma.

Mis on masinõppe konveier?

Masinõppe konveier on omavahel aheldatud andmetöötluskomponentide jada. Need komponendid hõlmavad tavaliselt:

Andmete puhastamine: puuduvate väärtuste, erindite ja ebakõlade käsitlemine.
Tunnuste loomine: uute tunnuste loomine olemasolevatest, et parandada mudeli jõudlust.
Tunnuste valik: mudeli jaoks kõige asjakohasemate tunnuste valimine.
Mudeli treenimine: masinõppemudeli treenimine ettevalmistatud andmetel.
Mudeli hindamine: treenitud mudeli jõudluse hindamine.

Konveieri kasutamine pakub mitmeid eeliseid, sealhulgas:

Reprodutseeritavus: tagamine, et samu andmetöötluse samme rakendatakse järjepidevalt.
Modulaarsus: andmetöötluse töövoo jaotamine korduvkasutatavateks komponentideks.
Hoolduse lihtsus: andmetöötluse töövoo uuendamise ja hooldamise lihtsustamine.
Lihtsustatud juurutamine: masinõppemudelite juurutamise protsessi sujuvamaks muutmine.

Miks kohandatud teisendajad?

Scikit-learn pakub laia valikut sisseehitatud teisendajaid tavaliste andmetöötlusülesannete jaoks. Paljudes reaalsetes olukordades peate aga tegema kohandatud andmeteisendusi, mis on spetsiifilised teie andmetele ja probleemile. Siin tulevadki mängu kohandatud teisendajad. Kohandatud teisendajad võimaldavad teil kapseldada oma kohandatud andmetöötlusloogika korduvkasutatavatesse komponentidesse, mida saab sujuvalt integreerida scikit-learni konveierisse.

Kujutage näiteks ette, et töötate ülemaailmse e-kaubanduse platvormi kliendiandmetega. Teil võib olla vaja luua kohandatud teisendaja, mis teisendab tehinguvaluutad ühisesse valuutasse (nt USD), tuginedes ajaloolistele vahetuskurssidele. Või kaaluge olukorda, mis hõlmab andurite andmeid IoT-seadmetest erinevates riikides; võiksite luua kohandatud teisendaja andmete normaliseerimiseks kohalike ajavööndite ja mõõtühikute alusel.

Kohandatud teisendaja loomine

Kohandatud teisendaja loomiseks scikit-learnis peate looma klassi, mis pärib klassidest sklearn.base.BaseEstimator ja sklearn.base.TransformerMixin. Teie klass peab implementeerima kaks meetodit:

fit(self, X, y=None): see meetod õpib kõik teisenduseks vajalikud parameetrid. Paljudel juhtudel tagastab see meetod lihtsalt self.
transform(self, X): see meetod rakendab teisenduse andmetele.

Siin on põhiline näide kohandatud teisendajast, mis lisab igale tunnusele konstantse väärtuse:

            from sklearn.base import BaseEstimator, TransformerMixin
import numpy as np

class AddConstantTransformer(BaseEstimator, TransformerMixin):
    def __init__(self, constant=1):
        self.constant = constant

    def fit(self, X, y=None):
        return self

    def transform(self, X):
        return X + self.constant

Vaatame seda näidet lähemalt:

Vajalike teekide importimine: BaseEstimator, TransformerMixin teegist sklearn.base ja numpy numbriliste operatsioonide jaoks.
Klassi defineerimine: AddConstantTransformer pärib klassidest BaseEstimator ja TransformerMixin.
Konstruktor (__init__): see meetod initsialiseerib teisendaja constant väärtusega (vaikimisi 1).
fit-meetod: see meetod tagastab lihtsalt self, kuna see teisendaja ei pea andmetest mingeid parameetreid õppima.
transform-meetod: see meetod lisab constant väärtuse igale elemendile sisendandmetes X.

Kasutusnäide

            from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler

X = np.array([[1, 2], [3, 4], [5, 6]])

pipeline = Pipeline([
    ('scaler', StandardScaler()),
    ('add_constant', AddConstantTransformer(constant=2))
])

X_transformed = pipeline.fit_transform(X)

print(X_transformed)

See näide demonstreerib, kuidas kasutada AddConstantTransformer'it konveieris. Esmalt skaleeritakse andmed, kasutades StandardScaler'it, ja seejärel lisatakse konstant, kasutades meie kohandatud teisendajat.

Kohandatud teisendajate arenenud arendus

Nüüd uurime mõningaid keerukamaid stsenaariume ja tehnikaid kohandatud teisendajate loomiseks.

Kategoriaalsete tunnuste käsitlemine

Kategoriaalsed tunnused on masinõppes levinud andmetüüp. Saate luua kohandatud teisendajaid, et teostada kategoriaalsete tunnustega erinevaid toiminguid, näiteks one-hot-kodeerimist, sildikodeerimist või tunnuste räsimist.

Siin on näide kohandatud teisendajast, mis teostab one-hot-kodeerimist määratud veergudel:

            import pandas as pd
from sklearn.preprocessing import OneHotEncoder

class CategoricalEncoder(BaseEstimator, TransformerMixin):
    def __init__(self, categorical_features=None):
        self.categorical_features = categorical_features
        self.encoder = None

    def fit(self, X, y=None):
        if self.categorical_features is None:
            self.categorical_features = X.select_dtypes(include=['object']).columns

        self.encoder = OneHotEncoder(handle_unknown='ignore', sparse_output=False)
        self.encoder.fit(X[self.categorical_features])
        return self

    def transform(self, X):
        X_encoded = self.encoder.transform(X[self.categorical_features])
        X_encoded = pd.DataFrame(X_encoded, index=X.index, columns=self.encoder.get_feature_names_out(self.categorical_features))
        X = X.drop(columns=self.categorical_features)
        X = pd.concat([X, X_encoded], axis=1)
        return X

Selles näites:

Teisendaja tuvastab kategoriaalsed veerud automaatselt (kui pole määratud).
See kasutab kodeerimiseks OneHotEncoder'it scikit-learnist.
See käsitleb tundmatuid kategooriaid, kasutades handle_unknown='ignore'.
Kodeeritud tunnused liidetakse tagasi algse andmeraamistikuga.

Puuduvate väärtuste käsitlemine

Puuduvad väärtused on veel üks levinud probleem masinõppe andmestikes. Saate luua kohandatud teisendajaid puuduvate väärtuste asendamiseks, kasutades erinevaid strateegiaid, näiteks keskmise, mediaani või moodi asendamist.

Siin on näide kohandatud teisendajast, mis asendab puuduvad väärtused mediaaniga:

            from sklearn.impute import SimpleImputer

class MissingValueImputer(BaseEstimator, TransformerMixin):
    def __init__(self, strategy='median', missing_values=np.nan):
        self.strategy = strategy
        self.missing_values = missing_values
        self.imputer = None

    def fit(self, X, y=None):
        self.imputer = SimpleImputer(strategy=self.strategy, missing_values=self.missing_values)
        self.imputer.fit(X)
        return self

    def transform(self, X):
        return self.imputer.transform(X)

See teisendaja kasutab asendamiseks SimpleImputer'it scikit-learnist. See võimaldab teil määrata asendusstrateegia ja väärtuse, mida kasutatakse puuduvate väärtuste tähistamiseks.

Tunnuste skaleerimine ja normaliseerimine

Tunnuste skaleerimine ja normaliseerimine on paljude masinõppealgoritmide jaoks olulised eeltöötluse sammud. Saate luua kohandatud teisendajaid erinevate skaleerimis- ja normaliseerimistehnikate rakendamiseks.

Kuigi scikit-learn pakub teisendajaid nagu StandardScaler ja MinMaxScaler, võite vajada kohandatud skaleerijat spetsiifiliste andmejaotuste jaoks. Näiteks, kui teil on andmeid väga viltuse jaotusega, võib PowerTransformer (samuti saadaval scikit-learnis) olla sobivam. Siiski saate selle kapseldada kohandatud teisendajasse, et hallata selle parameetreid ja integreerida see sujuvalt oma konveierisse.

            from sklearn.preprocessing import PowerTransformer

class SkewedDataTransformer(BaseEstimator, TransformerMixin):
    def __init__(self, method='yeo-johnson'):
        self.method = method
        self.transformer = None

    def fit(self, X, y=None):
        self.transformer = PowerTransformer(method=self.method)
        self.transformer.fit(X)
        return self

    def transform(self, X):
        return self.transformer.transform(X)

Mitme teisenduse kombineerimine

Mõnikord peate samadele andmetele rakendama mitu teisendust. Saate luua kohandatud teisendaja, mis ühendab mitu teisendust üheks sammuks. See aitab teie konveierit lihtsustada ja muuta selle loetavamaks.

Siin on näide kohandatud teisendajast, mis ühendab one-hot-kodeerimise ja puuduvate väärtuste asendamise:

            class CombinedTransformer(BaseEstimator, TransformerMixin):
    def __init__(self, categorical_features=None, missing_value_strategy='median'):
        self.categorical_features = categorical_features
        self.missing_value_strategy = missing_value_strategy
        self.categorical_encoder = None
        self.missing_value_imputer = None

    def fit(self, X, y=None):
        self.categorical_encoder = CategoricalEncoder(categorical_features=self.categorical_features)
        self.missing_value_imputer = MissingValueImputer(strategy=self.missing_value_strategy)
        self.categorical_encoder.fit(X)
        self.missing_value_imputer.fit(X)
        return self

    def transform(self, X):
        X = self.categorical_encoder.transform(X)
        X = self.missing_value_imputer.transform(X)
        return X

See teisendaja kasutab eelmiste näidete CategoricalEncoder'it ja MissingValueImputer'it, et teostada nii one-hot-kodeerimist kui ka puuduvate väärtuste asendamist ühe sammuga.

Kohandatud teisendajate arendamise parimad tavad

Siin on mõned parimad tavad, mida järgida kohandatud teisendajate arendamisel:

Hoidke see lihtsana: iga teisendaja peaks täitma ühte, hästi määratletud ülesannet.
Muutke see korduvkasutatavaks: kujundage oma teisendajad võimalikult üldiseks, et neid saaks uuesti kasutada erinevates konveierites.
Käsitlege erijuhtumeid: kaaluge, kuidas teie teisendaja käsitleb erijuhtumeid, nagu puuduvad väärtused, erindid ja ootamatud andmetüübid.
Kirjutage ühikteste: kirjutage ühikteste, et tagada teie teisendaja korrektne toimimine.
Dokumenteerige oma kood: dokumenteerige oma kood selgelt, et teised saaksid aru, kuidas teie teisendajat kasutada.

Reaalse elu näited

Uurime veel mõningaid reaalse elu näiteid kohandatud teisendajatest.

Kuupäevatunnuste loomine

Aegridaandmetega töötades on sageli kasulik eraldada kuupäevadest tunnuseid, nagu nädalapäev, aasta kuu või aasta kvartal. Selle ülesande täitmiseks saate luua kohandatud teisendaja.

            class DateFeatureExtractor(BaseEstimator, TransformerMixin):
    def __init__(self, date_columns=None):
        self.date_columns = date_columns

    def fit(self, X, y=None):
        return self

    def transform(self, X):
        for col in self.date_columns:
            X[col + '_dayofweek'] = X[col].dt.dayofweek
            X[col + '_month'] = X[col].dt.month
            X[col + '_quarter'] = X[col].dt.quarter
        return X

See teisendaja eraldab määratud kuupäevaveergudest nädalapäeva, kuu ja kvartali.

Tekstitunnuste loomine

Tekstiandmetega töötades on sageli kasulik luua tunnuseid, kasutades tehnikaid nagu TF-IDF või sõnasängistused. Nende ülesannete täitmiseks saate luua kohandatud teisendajaid. Kaaluge näiteks kliendiarvustusi mitmes keeles. Teil võib vaja minna kohandatud teisendajat, mis tõlgib arvustused inglise keelde enne TF-IDF vektoriseerimise rakendamist.

Märkus: Tõlketeenused nõuavad sageli API-võtmeid ja võivad kaasa tuua kulusid. See näide keskendub kohandatud teisendaja struktuurile.

            # Märkus: See näide nõuab tõlketeenust (nt Google Translate API) ja API-võtit
# from googletrans import Translator # Näidisteek (paigalda käsuga pip install googletrans==4.0.0-rc1)

class TextFeatureExtractor(BaseEstimator, TransformerMixin):
    def __init__(self, text_column, language='en'):
        self.text_column = text_column
        self.language = language
        # self.translator = Translator() # Tõlkija instantsi loomine (nõuab seadistamist)

    def fit(self, X, y=None):
        return self

    def transform(self, X):
        # Näide: Tõlgi inglise keelde (asenda tegeliku tõlkeloogikaga)
        # X[self.text_column + '_translated'] = X[self.text_column].apply(lambda text: self.translator.translate(text, dest=self.language).text)
        # Näitlik tõlge demonstratsiooni eesmärgil
        X[self.text_column + '_translated'] = X[self.text_column].apply(lambda text: "Tõlgitud: " + text)

        # Rakenda siin TF-IDFi või muid teksti vektoriseerimise tehnikaid
        return X

Georuumiliste tunnuste loomine

Georuumiliste andmetega töötades saate luua kohandatud teisendajaid tunnuste eraldamiseks, nagu kaugus lähima linnani, rahvastikutihedus või maakasutuse tüüp. Kaaluge näiteks kinnisvarahindade analüüsimist ülemaailmselt. Saate luua kohandatud teisendaja, mis hangib antud asukoha keskmise sissetulekutaseme, kasutades väliseid API-sid laius- ja pikkuskraadide põhjal.

Integreerimine olemasolevate teekidega

Kohandatud teisendajaid saab kasutada teiste Pythoni teekide funktsionaalsuse kapseldamiseks scikit-learni konveierisse. See võimaldab teil kasutada teiste teekide võimsust, saades samal ajal kasu konveieri struktuurist ja organiseeritusest.

Näiteks võiksite kasutada kohandatud teisendajat, et integreerida oma masinõppe konveierisse teek anomaaliate tuvastamiseks, aegridade prognoosimiseks või pilditöötluseks.

Kokkuvõte

Kohandatud teisendajad on võimas tööriist vastupidavate ja hooldatavate masinõppe konveierite loomiseks scikit-learnis. Kapseldades oma kohandatud andmetöötlusloogika korduvkasutatavatesse komponentidesse, saate luua konveiereid, mida on lihtsam mõista, uuendada ja juurutada. Pidage meeles, et järgida parimaid tavasid, kirjutada ühikteste ja dokumenteerida oma kood, et tagada teie kohandatud teisendajate usaldusväärsus ja hooldatavus. Masinõppeoskuste arendamisel muutub kohandatud teisendajate arendamise valdamine hindamatuks keeruliste ja mitmekesiste reaalsete probleemide lahendamisel üle maailma. Alates rahvusvahelise e-kaubanduse valuutakonversioonide käsitlemisest kuni IoT-seadmete andurite andmete töötlemiseni üle maailma, annavad kohandatud teisendajad teile võimaluse kohandada oma konveiereid vastavalt teie andmete ja rakenduste spetsiifilistele vajadustele.